Kürzlich habe ich alte und große Snapshots von meinem kleinen Ceph Cluster unter cephfs gelöscht. Das darauf folgende snaptrim hat alles was auf dem FS lief ins timeout geschickt.
Meine Lösung hierfür waren folgende Setting die jetzt nach 2 weiteren großen Snapshot Löschungen scheinbar ihre Wirkung zeigen:
ceph config set osd osd_mclock_profile high_client_ops
ceph config set osd osd_max_trimming_pgs 1
ceph config set osd osd_pg_max_concurrent_snap_trims 1
ceph config set osd osd_snap_trim_priority 10